Exploitation and exploration

Bij de vorige opdracht heb je een AI geleerd om van jou te winnen met hexapawn. In de praktijk is dat niet zo handig, omdat het erg lang duurt. We gaan tijdens deze opdracht het spel "octapawn" spelen. Dat is hexapawn, maar dan met 8 pionnen. Het spel is ingewikkelder (ongeveer een factor 50) en het zou heel lang duren om de AI door een mens te laten trainen. Het is veel handiger als de AI dat zelf kan. 

Hieronder zie je een AI die dat kan. In plaats van dat het oefent tegen jou, oefent het tegen zichzelf. De AI leert daarbij spelen als wit en als zwart. We kiezen de zetten tijdens het leren een beetje anders. We willen tijdens het leren niet altijd de beste zet doen. We willen de hele beslisboom verkennen en ontdekken welke zetten goed zijn. Dat doet de AI als volgt:

Tijdens het trainen is er een balans tussen exploitatie en exploratie. Als het trainen klaar is, maakt de AI maximaal gebruik van de opgedane kennis als het tegen jou speelt (exploitatie). 


Opdracht: Beantwoord de volgende vragen